智能论文笔记

VQ-Flows: Vector Quantized Local Normalizing Flows

Sahil Sidheekh , Chris B. Dock , Tushar Jain , Radu Balan , Maneesh K. Singh

分类：机器学习 | 人工智能 | (统计)机器学习

2022-03-22

归一化的流提供了一种优雅的生成建模方法，可以有效地采样和确切的数据分布的密度评估。但是，当在低维歧管上支持数据分布或具有非平凡的拓扑结构时，当前技术的表现性有显着局限性。我们介绍了一个新的统计框架，用于学习局部正常流的混合物作为数据歧管上的“图表图”。我们的框架增强了最近方法的表现力，同时保留了标准化流的签名特性，他们承认了精确的密度评估。我们通过量化自动编码器（VQ-AE）学习了数据歧管图表的合适地图集，并使用条件流量学习了它们的分布。我们通过实验验证我们的概率框架可以使现有方法更好地模拟数据分布，而不是复杂的歧管。

translated by 谷歌翻译

Caching Contents with Varying Popularity using Restless Bandits

Pavamana K J , Chandramani Kishore Singh

分类：人工智能

2022-10-31

Mobile networks are experiencing prodigious increase in data volume and user density , which exerts a great burden on mobile core networks and backhaul links. An efficient technique to lessen this problem is to use caching i.e. to bring the data closer to the users by making use of the caches of edge network nodes, such as fixed or mobile access points and even user devices. The performance of a caching depends on contents that are cached. In this paper, we examine the problem of content caching at the wireless edge(i.e. base stations) to minimize the discounted cost incurred over infinite horizon. We formulate this problem as a restless bandit problem, which is hard to solve. We begin by showing an optimal policy is of threshold type. Using these structural results, we prove the indexability of the problem, and use Whittle index policy to minimize the discounted cost.

translated by 谷歌翻译

UAV-based Visual Remote Sensing for Automated Building Inspection

Kushagra Srivastava , Dhruv Patel , Aditya Kumar Jha , Mohhit Kumar Jha , Jaskirat Singh , Ravi Kiran Sarvadevabhatla , Pradeep Kumar Ramancharla , Harikumar Kandath , K. Madhava Krishna

分类：计算机视觉 | 机器人

2022-09-27

与计算机视觉合并的基于无人机的遥感系统（UAV）遥感系统具有协助建筑物建设和灾难管理的潜力，例如地震期间的损害评估。可以通过检查来评估建筑物到地震的脆弱性，该检查考虑到相关组件的预期损害进展以及组件对结构系统性能的贡献。这些检查中的大多数是手动进行的，导致高利用人力，时间和成本。本文提出了一种通过基于无人机的图像数据收集和用于后处理的软件库来自动化这些检查的方法，该方法有助于估算地震结构参数。这里考虑的关键参数是相邻建筑物，建筑计划形状，建筑计划区域，屋顶上的对象和屋顶布局之间的距离。通过使用距离测量传感器以及通过Google Earth获得的数据进行的现场测量，可以验证所提出的方法在估计上述参数估算上述参数方面的准确性。可以从https://uvrsabi.github.io/访问其他详细信息和代码。

translated by 谷歌翻译

MAC: A Meta-Learning Approach for Feature Learning and Recombination

S. Tiwari , M. Gogoi , S. Verma , K. P. Singh

分类：机器学习

2022-09-20

基于优化的元学习旨在学习初始化，以便在一些梯度更新中可以学习新的看不见的任务。模型不可知的元学习（MAML）是一种包括两个优化回路的基准算法。内部循环致力于学习一项新任务，并且外循环导致元定义。但是，Anil（几乎没有内部环）算法表明，功能重用是MAML快速学习的替代方法。因此，元定义阶段使MAML用于特征重用，并消除了快速学习的需求。与Anil相反，我们假设可能需要在元测试期间学习新功能。从非相似分布中进行的一项新的看不见的任务将需要快速学习，并重用现有功能。在本文中，我们调用神经网络的宽度深度二元性，其中，我们通过添加额外的计算单元（ACU）来增加网络的宽度。 ACUS可以在元测试任务中学习新的原子特征，而相关的增加宽度有助于转发通行证中的信息传播。新学习的功能与最后一层的现有功能相结合，用于元学习。实验结果表明，我们提出的MAC方法的表现优于现有的非相似任务分布的Anil算法，约为13％（5次任务设置）

translated by 谷歌翻译

Real-Time Heuristic Framework for Safe Landing of UAVs in Dynamic Scenarios

Jaskirat Singh , Neel Adwani , Harikumar Kandath , K. Madhava Krishna

分类：机器人

2022-09-11

我们生活的世界充满了技术，而每天都有无人机的进步和使用有效地增加。由于许多应用程序方案，在某些任务中，无人机容易受到外部干扰的影响，例如地面站的连通性丧失，安全任务，安全问题和与交货相关的任务。因此，根据情况，这可能会影响运营并导致无人机的安全着陆。因此，本文提出了一种在动态环境中安全着陆的启发式方法。这种方法的目的是检测安全的潜在降落区 - PLZ，并找出最适合降落的区域。最初，PLZ是通过通过Canny Edge算法处理图像来检测的，然后应用了直径估计值对于每个边缘最小的区域。比车辆间隙更高的斑点被标记为安全PLZ。在该方法的第二阶段中，计算了向PLZ移动的动态障碍的速度，并考虑到达到区域的时间。计算无人机的ETA并在无人机的下降期间，执行动态障碍物。在现实世界环境中测试的方法显示了现有工作的更好结果。

translated by 谷歌翻译

Hierarchical Semantic Regularization of Latent Spaces in StyleGANs

Tejan Karmali , Rishubh Parihar , Susmit Agrawal , Harsh Rangwani , Varun Jampani , Maneesh Singh , R. Venkatesh Babu

分类：计算机视觉

2022-08-07

GAN的进展使高分辨率的感性质量形象产生了产生。 stylegans允许通过数学操作对W/W+空间中的潜在样式向量进行数学操作进行引人入胜的属性修改，从而有效调节生成器的丰富层次结构表示。最近，此类操作已被推广到原始StyleGan纸中的属性交换之外，以包括插值。尽管StyleGans有许多重大改进，但仍被认为会产生不自然的图像。生成的图像的质量基于两个假设。（a）生成器学到的层次表示的丰富性，以及（b）样式空间的线性和平滑度。在这项工作中，我们提出了一个层次的语义正常化程序（HSR），该层次正常化程序将生成器学到的层次表示与大量数据学到的相应的强大功能保持一致。 HSR不仅可以改善发电机的表示，还可以改善潜在风格空间的线性和平滑度，从而导致产生更自然的样式编辑的图像。为了证明线性改善，我们提出了一种新型的度量 - 属性线性评分（ALS）。通过改善感知路径长度（PPL）度量的改善，在不同的标准数据集中平均16.19％的不自然图像的生成显着降低，同时改善了属性编辑任务中属性变化的线性变化。

translated by 谷歌翻译

Leveraging Distributional Bias for Reactive Collision Avoidance under Uncertainty: A Kernel Embedding Approach

Anish Gupta , Arun Kumar Singh , K. Madhava Krishna

分类：机器人

2022-08-05

许多测量机器人和动态障碍状态的商品传感器具有非高斯噪声特征。然而，许多当前的方法将运动和感知的潜在不确定性视为高斯，主要是为了确保计算障碍。另一方面，与非高斯不确定性一起工作的现有计划者不会阐明运动和感知噪声的分布特征，例如偏见以避免有效碰撞。本文通过将避免反应性碰撞解释为碰撞约束违规与Dirac Delta分布之间的分配匹配问题来填补这一空白。为了确保策划者的快速反应性，我们将每个分布嵌入重现Hilbert空间，并将分布匹配重新匹配，以最大程度地减少两个分布之间的最大平均差异（MMD）。我们表明，评估给定对照输入的MMD归结为仅矩阵矩阵产品。我们利用这种见解来开发一种简单的控制抽样方法，以避免动态和不确定的障碍。我们在两个方面推进了最新的。首先，我们进行了广泛的实证研究，以表明我们的计划者可以从样本级别的信息中推断出分布偏差。因此，它使用此见解来指导机器人良好的同型。我们还强调了基本不确定性的高斯近似如何失去偏置估计值，并引导机器人以高碰撞概率为不利状态。其次，我们显示了与以前的非参数和高斯近似反应性碰撞避免碰撞的碰撞方法的拟议分布匹配方法的切实比较优势。

translated by 谷歌翻译

NGAME: Negative Mining-aware Mini-batching for Extreme Classification

Kunal Dahiya , Nilesh Gupta , Deepak Saini , Akshay Soni , Yajun Wang , Kushal Dave , Jian Jiao , Gururaj K , Prasenjit Dey , Amit Singh

分类：机器学习

2022-07-10

极端分类（XC）试图用最大的标签集中标记标签的子集标记数据点。通过使用稀疏，手工制作的功能的XC方法优越，用密集，学习的数据来进行深度XC，以数据点和标签的形式吸引了很多关注。负挖掘技术已成为所有深XC方法的关键组成部分，使它们可以扩展到数百万个标签。然而，尽管最近进步，但培训具有大型编码器体系结构（例如变形金刚）的深入XC模型仍然具有挑战性。本文确定，流行负面挖掘技术的内存通常迫使小型批量尺寸保持小且缓慢的训练。作为回应，本文介绍了Ngame，这是一种轻巧的迷你批次创建技术，可证明可证明准确的内部负面样品。这使得与现有负面采样技术相比，具有更大的迷你批次培训，提供更快的收敛性和更高的精度。发现Ngame的准确性比各种基准数据集的最先进方法要高16％，以进行极端分类，并且在回答搜索引擎查询以响应用户网页时检索搜索引擎查询更准确3％显示个性化广告。在流行搜索引擎的实时A/B测试中，Ngame在点击率率中的收益最高可达23％。

translated by 谷歌翻译

Interpretable Acoustic Representation Learning on Breathing and Speech Signals for COVID-19 Detection

Debottam Dutta , Debarpan Bhattacharya , Sriram Ganapathy , Amir H. Poorjam , Deepak Mittal , Maneesh Singh

分类：机器学习

2022-06-27

在本文中，我们描述了一种表示音频信号的表示方法，以实现COVID-19检测任务。将原始音频样品用1D卷积过滤器进行处理，这些过滤器被参数化为余弦调制的高斯函数。这些内核的选择允许将滤纸解释为光滑的带通滤波器。过滤后的输出汇总，对数压缩并用于基于自我注意的相关加权机制。相关权重强调了时间频分解的关键区域，这对于下游任务很重要。该模型的后续层由复发架构组成，模型经过训练，以执行COVID-19检测任务。在我们对COSWARA数据集的实验中，我们表明，所提出的模型在基线系统以及其他表示学习方法上实现了显着的性能改进。此外，提出的方法被证明适用于语音和呼吸信号以及从较大的数据集中转移学习。

translated by 谷歌翻译

Know your audience: specializing grounded language models with the game of Dixit

Aaditya K. Singh , David Ding , Andrew Saxe , Felix Hill , Andrew K. Lampinen

分类：机器学习 | 人工智能 | 自然语言处理

2022-06-16

有效的沟通需要适应与每个交流伙伴共享的特质共同基础。我们研究了这个问题的特别具有挑战性的实例化：流行的游戏dixit。我们将一轮dixit作为多代理图像参考游戏，在其中（训练有素的）扬声器模型描述了目标图像，以使一个（预审计的）侦听器模型可以从一组干扰器中正确识别它，但另一个听众无法识别它。为了适应这种设置，演讲者必须利用与不同听众共享的共同点的差异。我们表明，在这种对比性的多代理设置中，在剪辑视觉编码器和大型语言模型之间进行基于注意力的适配器会产生与上下文相关的自然语言专业化，而无需直接监督。在一系列受控的实验中，我们表明说话者可以根据各对不同听众的特质优势和劣势来适应。此外，我们显示了说话者专业化对看不见的现实世界数据的零拍传输。我们的实验为复杂的多方设置中的自适应沟通提供了一步，并突出了Dixit等游戏带来的有趣的研究挑战。我们希望我们的工作能够激发创造性的新方法，以适应预处理的模型。

translated by 谷歌翻译